- 以下内容引自:
- Common mistakes in ecological niche models
介绍
生态位模型(ENMS)是经验性的或数学的方法来几种类型的物种的生态位(布斯等人。1988,彼得森等人。2011,巴博萨等人。2012 ),涉及分别生理(机理模型)或分布数据(COR -相关模型)到环境预测变量(Hutchinson 1957 ,Sillero 2011)。ENMS旨在确定该限制的因素,并定义物种龛,并且因此,预测的当前分布和合适的栖息地(Chefaoui 等人。2015年)或过去的(诺格斯-布拉沃等。2008)种。ENMS可以投射以及在时间和空间中的其他的场景(巴博萨等人。2009,Werkowska 等人。2017,叶慈等人。2018 )。ENM已经成为自然保护和管理的流行工具(Franklin 2010)。
相关模型是最常用的,因为它们更可行。实际上,很少有足够的生理数据可用于机械模型。对CON组trary,空间环境数据(Hijmans 等人。2005年,Kriticos 等人。2012 ,利马-Ribeiro的2015 ,菲克和Hijmans 2017,卡尔格等人。2017年,标题和Bemmels 2018)和物种发生数据(Yesson 等人。2007年,Beukema 等人。2013,Ficetola 等人。2014,Sillero 等。2014年,Bencatel 等人。2019)目前非常丰富,简单的获得(例如,从数据文件和在线资源,如信息设施,自然保护,自然保护联盟,Neotoma,
和别的)。最近,还为ENM研究开发了全球前言数据库(Booth,2018年)。即使对于经验不足的建模人员,某些相关方法也很容易应用,例如Maxent(Phillips 等人,2017年)。这种广泛的可用性和易用性可以使利基建模特别容易出现初学者的错误。最近的文献提供两套准则下不同目的的利基或分布建模(阿劳若等人。2019,冯等人。2019,索费尔等人。2019),但仍有一些常见错误有待明确解决。基于我们对生物地理学和空间生态学的研究背景,在这里我们概述了学生和建模者所犯的一些常见的方法学错误,并解释了如何纠正它们。
在讲完关于生态位模型的入门课程的几版并审阅了许多手稿之后,我们意识到存在一系列经常性的错误,即:1)存在背景方法被用作伪缺席方法;2)使用术语“空间自相关”代替出现数据的空间聚类,并通过过滤记录来处理;3)使用比物种记录更高的空间分辨率的环境变量;4)不考虑变量之间的相关性;5)不复制机器学习模型;6)地形(基于距离)变量是根据地理(非投影)坐标系计算得出的;并且;7)通过重新采样来缩小环境变量的比例。在这里,我们回顾了在计算相关ENM时的常见错误,
在场方法不是伪不在场方法
存在背景的方法,例如Maxent模型(菲利普斯等人。2017年)或生态位因素分析(ENFA;希瑟尔等人。2002年)经常被用作存在/伪不存在的方法(BAEK 等人。2019,张等人。2019)。但是,它们实际上是描述文件或存在背景的方法(Guillera-Arroita 等人,2014年)。后台记录并不意味着种伪缺席,而是整体可用的条件(菲利普斯频谱等人。2009年,伊图尔维德等人。2018,Hallgren 等。2019)。背景是整个研究区域,包括存在的像素。尽管如此,许多学生和作者误背景伪缺勤(如蔡等人。2019,查普曼等人。2019,法瑞尔等人。2019,马里亚尼等人。2019,纸业等人。2019,杨等人。2019,乐等人。2019)。伪缺勤的是人造的有无数据(Barbet的-Massin 等人。2012),即认为(但未确认)该物种的地方。在场背景方法只是在总体分析背景下区分合适的和不太合适的栖息地,而不像在场方法那样在占用和未占用的栖息地之间进行区分(Sillero 2011)。因此,存在背景的方法需要一组存在只(未存在/不存在或存在/伪不存在)记录加满背景的样品,其中包括存在位点(Guillera-Arroita 等人。2014)。事实上,更好的结果可以限制背景样品送到派驻附近区域(菲利普斯时获得等。2009年)。在场/不在场方法需要从非占用区域(缺席)中取样:即使人为缺席(即假缺席),它们也不能代表研究区域的整体状况,而只能代表未占用的栖息地。考虑Maxent模型或ENFA“仅存在的方法”而不承认背景的祁门功夫,功夫孟清湘是另一种常见的错误,如所选择的背景是为
影响力作为派驻对模型的结果所选择的集(菲利普斯等人。2009年,Anderson和拉扎2010)。
减少物种记录之间的空间自相关并不等同于过滤物种记录
许多学生误解了通过过滤(或细化)物种记录来减少空间自相关性。这种区别也发表论文往往不清楚(如布里托等人。2011年,贝兹等人。2019)。过滤是减少的物种记录聚类的程序(氧化硼等人。2014),从调查偏见频繁的结果,因为分布数据从更容易访问的网站收集更多的时候(Kadmon所写等人。2004年,巴博萨等人。2010 ,2013年)。物种的存在常常与城市中心,道路或研究机构的靠近有关。这些偏见违背了专业记录之间独立性的假设(Franklin 2010)。建模的分布不仅与物种的观测分布相对应,而且与采样工作量的分布相对应。因此,习惯上通常使用距离规则删除一些记录,在该规则中,距离阈值以下的任何点都将被删除,直到物种数据集被视为未聚类为止(Aiello-Lammens 等人,2015年)。或者,Varela 等人。(2014年)表明按环境标准过滤可提供更好的结果。然而,如果没有可靠的信息在物种发生数据的偏置进行(Gabor滤波可提供更坏的结果等。2019)。
自相关实际上是必不可少的建模(Segurado 等人。2006年,杜曼2007年,曼等人。2007年,德马尔科等人。2008 )。空间自相关是地理第一定律托布勒定律的属性:“万物与其他所有事物都相关,但近处的事物比远处的事物更相关”(Tobler 1970)。这意味着较近的位置往往具有更多相似的值。通常,两个附近地点之间的温度和降水比两个远处地点之间的温度和降水更相似。同一变量的位置值之间的这种关系是空间自相关,这是空间相关的一种特殊情况。在一个更正式的定义中:'给定一个包含n个地理单位的集合S,空间自相关是指在n个地点的每一个中观察到的某个变量与为从中选择的所有n(n -1)对定义的地理接近度之间的关系。n '(Getis 2008)。因此,空间自相关是物种位置与环境变量之间重要且必要的属性。如果物种的位置不具有特定环境变量的空间自相关性,则该变量对物种而言就没有意义,因为它没有任何依赖于距离的关系。换句话说,没有环境梯度:该变量的所有值在整个空间中都是相似的,或者它们的变化与距离没有任何关系。和没有环境梯度,我们不能产生模型:越强梯度,更大的模式的解释或预测能力(Seoane的等人。2005年)。然而,自相关在评估模型性能时会导致偏差,并且会影响模型系数和统计推断(Oliveira 等人,2014年)。
。因此,空间自相关是物种位置与环境变量之间重要且必要的属性。如果物种的位置对于特定的环境变量没有空间自相关,则此变量对物种而言是没有意义的,因为它缺少依赖于距离的任何关系。换句话说,没有环境梯度:该变量的所有值在整个空间中都是相似的,或者它们的变化与距离没有任何关系。和没有环境梯度,我们不能产生模型:越强梯度,更大的模式的解释或预测能力(Seoane的等人。2005年)。然而,自相关在评估模型性能时会导致偏差,并且会影响模型系数和统计推断(Oliveira等人,2014年)。
必须避免空间自相关训练和测试数据之间,以两个数据集(Peterson和Soberón之间保证独立性2012)。测试数据包括存在和(伪)缺失,因此在两种物种发生数据之间也必须避免自相关(Oliveira 等人,2014年)。同样的,
自相关必须模型残差中避免,因为在存在记录偏差的结果(加斯帕德等人。2019)。确实,对记录的不正确过滤可能导致残差中的空间自相关。但是,训练和测试数据之间以及模型残差中的空间自相关性并不经常被分析。可以通过分裂可减少使用最近提出块交叉验证程序数据分成训练和测试数据集(罗伯茨这些问题等人。2017年,Valavi 等人。2019),或通过选择采样点独立于地理和环境空间(Oliveira的等。2014)。
记录和变量的空间分辨率应相同
## 重新理解这一部分概念:另外参照:最大化生态位模型重现性的清单ENM文章;
# 在这一部分中perterosn提到,不同的环境分辨率代表不同的生态过程,
报告环境变量的空间分辨率还有助于检查与事件的空间不确定性的匹配或不匹配,因为坐标有时以粗分辨率的县心为地理参照33
还应报告用于调整变量空间分辨率的聚合或分解方法(例如,如果它们来自不同的数据提供者)
大多数ENM研究使用栅格化的环境数据(例如栅格图)作为预测变量(但是,请参见Booth 等人,2014年)。在这种情况下,环境变量的像素尺寸应该对应的种类的记录的空间分辨率(巴博萨等人。2012,阿劳等人。2019,丰等人。2019,索费尔等人。2019)。这看似微不足道,但在许多建模工作中却被忽略了。如果物种记录被收集,例如,从10×10平方公里的空间分辨率分布图谱(Sillero 等人。2014,Bencatel 等。2019),环境变量不应以更高的分辨率使用,例如
约1 km2,例如WorldClim变量的原始分辨率(Hijmans 等人,2005 ; Fick和Hijmans,2017):环境变量的空间分辨率必须符合物种记录的空间分辨率。
这也适用于可能实际代表较大网格单元质心的点出现记录,例如GBIF等在线数据库中可用的许多记录。即使没有明确报告空间误差,对物种发生图的目视检查也经常发现许多点是均匀分布的(例如,当前在GBIF上,许多欧洲哺乳动物,两栖动物和爬行动物在经度和纬度上都显示出规则间隔的点,相距10 km)纬度)。这表明这些点是由固定大小的网格中的测量结果产生的,并且它们的空间误差或分辨率是这些点之间的规则距离。
在种坐标误差应等于或劣于环境变量的空间分辨率(Sillero和贡萨尔维斯,山高2014)。否则,每个发生记录都将被视为好像是在相应网格单元的中心像素处精确地观察到了该物种,而该像素处的环境值可能与在该单元中实际观察到该物种的地方的环境值相去甚远。 (例如,山区的中央山谷,反之亦然)。因此,如果物种坐标对应于10×10 km2的网格,则应在此分辨率下对环境变量进行重新缩放或聚合(例如,通过计算平均值,中位数,众数,最小值或最大值)。聚合变量中的一个相关问题是无法解决相关的错误,该错误通常在空间上有所变化,并且由于空间聚合而变得更加复杂。许多已提交和已发表的手稿并没有考虑到因预测变量引起的错误传播。等。2019)。
同样,过滤物种记录的距离阈值(例如10 km)对应于变量的空间分辨率(例如10 km2)也不一定有用。在此级别上过滤记录将无法解决物种数据的聚类程度。聚类级别必须在环境变量的空间分辨率下进行分析(在此例如10 km2),而不是高分辨率(例如1 km2)。一个好的解决方案是在任何可能的情况下都以高分辨率记录物种位置,例如使用GPS:在这种情况下,可以以高于误差测量的任何空间分辨率来使用物种记录,通常在2m至5m之间。如果机型内建有非常高的空间分辨率,即颗粒小于1米(Sillero和贡萨尔维斯-山高](#bookmark170)2014),使用GPS具有非常高的精度,例如,
大约10厘米是必要的。不幸的是,这并不总是可能的,在这种情况下,降低变量的分辨率可能会更好。理想情况下,应该在环境变量的空间分辨率和物种出现的位置精度之间找到一个良好的平衡。
通过重新采样不会增加变量的空间分辨率
与以前来看,它不可能直接增加环境变量的空间分辨率,无需访问用于估计它们的插补关系,并有足够的空间分辨率高程模型(Hijmans 等人。2005年,菲克和Hijmans 2017年)。如果变量的空间分辨率为1 km2,则将其直接转换为像素为100 m2的栅格不会增加变量的空间分辨率。通常很难发现这个错误,我们通常是在询问作者如何精确缩小变量后才发现的
例如,WorldClim数据达到其稿件中要求的更高分辨率(例如100米或30米以匹配数字高程模型的分辨率)。因此,该错误可能比普遍认为的更为普遍。
许多作者收集精美的当地尺度的物种发生的数据,一些研究表明,精细尺度模型确实可以产生在这样的尺度更好的结果,如果位置不确定性较低(Kaliontzopoulou 等人。2008年,戈特沙尔克等人。2011 ,Moudrý和Šímová 2012)。但是,这些细尺度通常在可用的气候变量中不直接匹配。重采样允许在调整像素大小或栅格网格的方向时重新计算并分配像素值。因此,重采样只会修改栅格的属性。这意味着,当通过使用另一个100 m2栅格作为模板重新采样将栅格从1 km2缩小到100 m2像素大小时,原始栅格的像素值将继续保持不变:结果将是具有与1 km的栅格具有相同的空间图案,但像素为100 m。栅格的大小(以像素数计)增加了,但是信息的数量和分辨率却没有增加。即使使用双线性插值,结果也将几乎相同,因为大多数像素的值相同,除了网格单元之间的边界附近的那些。降尺度气候变量的一种更正确的方法是对区域模型使用动态降尺度(例如,CORDEX框架,http://www.cordex.org/ ; Rummukainen 2010),尽管任何缩小的规模都会带来误差,因此,除非绝对必要,否则应避免这样做。
机器学习模型应该被复制
Maxent模型,随机森林,促进了回归树是机器学习方法,其中一个模型物种的同一数据集计算的任何时间记录的结果略有不同的例子(菲利普斯等人。2006 ,2017)。与此相反,通过例如广义线性模型(GLM)提供的结果,生态位因素分析(ENFA)或BIOCLIM总是对的物种记录相同的数据集(希瑟尔相同等人。2002年,布斯等人。
2014)。因此,如果使用机器学习方法,则必须为相同物种数据集多次计算模型,并至少提供模型的平均和标准偏差。如果培训和测试记录的选择是随机的,那么这一点就显得尤为重要。目的是评估结果在整个模型样本中是否稳定。根据可用的计算时间和存储,款式replica-和灰可以从最小的10〜50,100,或甚至更多(菲利普斯等人。2006年)。Maxent和其他软件包包含一个功能,用于指示要计算的重复次数,从而提供模型的平均值,中位数,最大值,最小值和标准偏差。但是,建模人员通常不会复制其模型,因此结果可能并不可靠。
高度相关的变量应从模型中排除
另一个常见的错误是,包括全套的变量,如所有19个BIOCLIM变量(尼克斯1986年,布斯等人。1988年),可从WorldClim(Hijmans 等人。2005年,菲克和Hijmans 2017年),无须严格地分析它们与排除多余的。建设有高度相关的变量模型可以有一些非预期的效果(富兰克林2010,现场等。2012 ,德马尔科和Nóbrega 2018):原假设可能会被错误拒绝;系数可以显着改变甚至改变其符号;可以选择微不足道的变量;该模型可能会过度拟合,过度调整数据(可能会反映噪声);并且可能无法正确解开每个变量的响应曲线,因为每个变量将与其他变量交互,从而妨碍了获得实际的响应曲线。共线性会影响以一个区域或时间的数据训练并以不同或未知的共线性结构投影到另一区域或时间的模型(请参见Dormann 等人,2013)进行审核)。但是,只有在使用正交变量(例如主成分分析(PCA)的结果)时才能获得真正独立的响应曲线。在现实世界中,正如托布勒定律(Tobler 1970)所指出的那样,所有事物都与其他事物相关,因此不可能有完全不相关的变量:降水将始终与温度相关,并且两者都与海拔高度相关,依此类推。 。因此,要在分析中选择最相关的变量,这是一个折衷方案。传统上,相关阈值约为0.7或更高(Dormann 等人,2013年)。),因为变量数量可能会变得太少,因此很难进行以下操作。用于处理共线性的其它方法是潜在变量的方法,收缩和正规化(曼等人。2013 )。一些方法,如BIOCLIM(尼克斯1986年),ENFA(希瑟尔等人。2002),以及马氏距离(克拉克等人。1993年),可以使用所有的变量,而不会受到它们之间的相关性。BIOCLIM是一种包络建模方法,它仅使用物种记录定义的极限,而无需假设任何关系函数或变量之间的相互作用(Nix 1986)。ENFA不依赖于变量之间的相关性,因为它本身就是一个主成分分析(PCA),转化所有变量与生态意义不同正交分量(希瑟尔等人。2002)。但是,将PCA的组件用作模型的变量会使结果的解释复杂化,因为我们将获得每个组件而不是每个变量的贡献。将模型投影到时空上的其他场景时,由于这些变量之间的共线性结构会随时空变化,因此无法直接为这些新场景计算PCA。个别的PCA可能是不
当在独立的正交空间上转换变量时,等效于不同尺寸的预测变量。因此,必须计算基准气候的PCA。使用其系数来计算其他情况下的分量。根据PCA的要求,必须使用基准气候的参数对所有变量进行标准化和集中处理。该模型最重要的变量将是第一个组件,因为它占变量集最大的可变性。有必要分析每个主成分内每个变量的贡献。在其余方法中,有必要评估变量之间的相关性并排除冗余变量(例如Leroy 等人,2014;Báez 等人。2019年,佩雷拉(Pereira)等人。2020年)。例如,在Maxent中,使用五个变量通常可以提供合理的结果(Peterson和Cohoon 1999 ,Cumming 2000)。有时,可以考虑在模型中包括相关变量,只要有理由证明两个变量都可以对物种的生态位产生决定性影响(例如,当一个物种同时受最高和最低温度影响时)。ř包ENMTML提供了一些有用的工具,以协助变量之间的相关性的降低(安德拉德等人。2020)。同样,可变通货膨胀因子(VIF)可以帮助选择要包含在模型中的变量:R包usdm为该问题提供了有用的工具(Naimi 等人,2014年)。但是请注意,高VIF不足以排除特定变量。它可能是更好,以除去其他不太有意义的变量(s)表示,用它相关,并且导致其VIF为高
未投影的坐标系不应用于计算地形变量
该错误由三个部分组成。经常将地形变量与地理坐标系(例如WGS84)一起使用,而不是投影坐标系。如果海拔是唯一的地形变量,则没有问题。但是,无法根据地理坐标系正确计算坡度,坡度或其他地形指标(Burrough and Mcdonnell 1998)。所有这些变量都是使用距离来计算的。所有地理坐标系都放置在一个椭球体上,并且在一个球体上计算出的任何距离都对应于圆弧距离而不是欧几里得距离。弧距离大于欧几里得距离。因此,有必要将高程图转换为投影坐标系,并从那里计算所有剩余的地形变量。
另一个常见的错误与方面的计算有关。Aspect定义了任何像素的基本位置:北,南,东,西和中间组合(Burrough和Mcdonnell 1998)。方面以度为单位进行度量,出现了问题:360º和0º实际上代表着相同的北值。但是,建模方法无法理解这两个值是相同的。一种解决方案是使用北面的宽高比(范围从0到180),并使用相同范围的东面的宽高比。最后,有时会通过计算在具有地理坐标系的地图中获得或丢失的像素数,来比较当前和将来适合物种的范围。由于这些系统不是平面的,因此估计的面积是错误的,因为距离和面积会随纬度而明显变化。因此,如果一个物种在一系列纬度分布,
那么范围大小变化的估计值将是有偏差的(Budic 等人,2016年)。
其他(相对)常见错误
常见错误列表必定是主观的,并取决于作者的个人经验。可以发现其他错误,尽管这些错误不是很常见(根据我们的经验),或者还没有明确的解决方案。
例如,通常使用辨别性能指标评估仅存在和存在背景模型,这些判别性能指标假定存在(伪)缺席信息。虽然这是错误的没有物种的真正流行率预测(Guillera-Arroita 等人。2014年,乐华等人。2018),判别指标仍然在对这些型号的需求,而替代品并不普遍(但见如博伊斯等人(2002年,Hirzel 等人,2006年,Liu 等人,2013年,Báez 等人,2019年)。
另一个常见的错误是在无法获得调查的缺勤数据时,使用了数量不足(通常过多)的伪缺勤或背景点。但是,建议尚不清楚应使用的点数是多少(可能取决于建模技术),或者这些建议是基于适用于非存在数据的辨别指标的(Barbet-Massin 等。2012年),这往往倾向于过拟合模型。
有时在气候变化影响研究中发现的另一个错误是由于在未来的气候预测中存在许多像素缺失的数据,主要是沿着海岸线的数据。在比较当前和将来合适范围的范围时,不同时间段之间缺少的数据必须相同,否则范围不具有可比性,并且范围大小变化将被错误计算。
讨论区
这些错误对模型输出的影响是多种多样的,从根本没问题到模型失效。在某些情况下,错误只是概念上的:建模输出可能是相同的,例如您将Maxent视为存在/伪缺失或存在/背景方法(Phillips 等人,2017年),还是将过滤称为减少自相关(富兰克林2010,艾洛-Lammens 等人。2015年)。但是,将背景解释为伪缺位可能会具有重要的后果,无论是为了划定研究区域(Anderson和Raza 2010,Barve 等人,2011)。)或评估模型的性能(菲利普斯等人。2009年 Golicher,等人。2012 ):背景包括考虑所有可用的栖息地,不论他们是否被占用或适当的。研究区域通常应排除物种无法扩散的区域(Anderson和Raza,2010年)。通过重新采样将变量缩小比例对模型输出的影响也很小:空间模式将类似于原始变量。
但是,其他三个错误可能会严重改变结果。当物种发生记录较粗糙时,在环境变量中使用更精细的空间分辨率可能会使模型完全错误。包含高度相关的变量可以使模型看起来比实际情况更好(Field 等人,2012 ; De Marco和Nóbrega,2018)。同样,结论可能是错误的,它可以使用它们时保护或管理决策(尤其危险艾迪生等人。2013,Guisan 等人。2013)。不幸的是,我们不知道使用从地理坐标系计算出的地形变量的确切效果。据我们所知,没有研究解决这个问题。使用地理(度)之间的差
或投影(以米为单位)的坐标系是从前者获得的距离较大且在整个纬度上不一致。这可以修改变量的一般模式,从而也可以修改模型的输出。根据北值的频率,使用360度和0度值的宽高比会影响模型输出。如果只有几个像素的值为360,则结果可能会受到不良影响。但是,如果物种主要发生在北坡,则该方法可能无法认识到坡向在物种分布中的正确重要性。
此处出现的大多数错误都是发布之前的错误,通常会由讲师,审阅者和编辑及时纠正。但是,在这里突出显示此类常见错误可以帮助节省宝贵的时间给学生及其主管和审阅者。但是,这些错误中的至少两个也可以在几篇已发表的论文中找到,即将Maxent视为伪缺席方法,并从地理坐标系中得出地形变量。如果未对方法进行充分描述,则有时难以跟踪后者。文章经常没有指定其空间数据的坐标参考系统(包括椭球和基准),而且人们可能会怀疑,如果作者使用的是WorldClim数据集中包含的海拔图,地形变量也可以直接从未投影的地理地图中获得。其余的错误最常见于ENM学生中。
为什么会出现这些错误?这是一个很难回答的问题。我们认为有必要阅读更多内容,即方法论论文,还需要阅读评论和教科书。尽管ENM并不是最近才出现,但许多方法相对较新(Fitzpatrick 等人,2013年)。例如,Maxent仅在13年前出版(Phillips 等人,2004年,2006年)。另外值得高亮在这里,我们只有三个生态位的教科书模型-玲,所有这一切都比较近,以及(富兰克林2010,彼得森等人。2011,Guisan 等人。2017年)。还有一些其他的作品提供建模指导方针,刚开始被引用(巴博萨等人。2012,Guillera-Arroita 等人。2015年,Jarnevich 等人。2015年,阿劳若等人。2019,冯等人。2019,索费尔等人。2019)。同样,有很多关于生态位模型的培训课程,但是可能有一小部分的建模初学者会参加。因此,有必要更加注重生态位模型的审查,以及更多的研究来分析这些错误的影响并提出更清晰的验证方法。尽管建立了生态位模型并广泛使用了统计方法,但用户仍然继续犯一些基本错误。
可能会发现其他错误,甚至在使用ENM的其他领域中更常见。这里提出的错误是由于我们的综合经验,同时讲授了近20篇ENM课程并审阅或编辑了150篇手稿。因此,该清单必定是主观的,并且基于我们自己在生物地理学和空间生态学方面的背景。不管其他研究人员和讲师可能遇到其他常见错误,我们都需要加大努力,避免在ENM领域再次发生方法学错误,以提高ENM研究的可重复性和可靠性。